Project name:single_word_test_omics_202510131746
Project ID:1760348900wLWMUXNldaAn
User:omicsolution
ion_type: 离子的类型
raw_feature_num: 原始特征数量
remove_missing_num: 移除缺失值后的数量
preprocess_feature_num: 预处理后的特征数量
preprocess_feature_num_name: 预处理后的有名称的特征数量
compare: 分组信息
ion_type: 离子的类型
diff_feature: 差异特征数量
diff_feature_up: 差异特征上调数量
diff_feature_down: 差异特征下调数量
diff_feature_name: 差异代谢物的数量
diff_feature_name_up: 差异代谢物上调数量
diff_feature_name_down: 差异代谢物下调数量
在进行统计分析之前,需要对原始数据进行一系列的预处理。数据预处理包括缺失值的剔除、填充、归一化等,详细步骤如下:1.缺失值的过滤:保留所有样本中非零值50%以上的特征峰(feature);2. 缺失值填充:原始矩阵中Intra-group mean填补缺失值;3. QC RSD过滤:删除QC样本相对标准偏差(RSD)> 30%的特征峰(feature),4.归一化:样本采用Sum进行归一化,经过一系列的数据预处理后,得到最终用于后续分析的数据矩阵,数据预处理详细过程见:
为了评价在上机过程中分析系统的稳定性,实验过程中会制备一个质控样品(Quality Control,QC)。QC样品由所有检测样品取等体积混合而成,在仪器分析的过程中,每15个分析样品插入一个QC样品,在数据分析时,可通过QC样本的重复性以考察整个分析过程中仪器稳定性,保证结果的可靠性。
样品经色谱分离流出的组分不断进入质谱,质谱连续扫描进行数据采集,每一次扫描得到一张质谱图,将每个时间点检测到的所有离子信号强度加和绘制成TIC图,可反映样品中所有离子的整体信息。
下图分别展示了正、负离子模式下,质控样品的TIC图。将QC样本的TIC谱图进行叠加,可以看出各QC样本间色谱峰强度和保留时间基本一致,表明系统稳定性及实验的重复性非常好。
对 QC 样本进行皮尔森(Pearson)相关性分析,一般QC样本相关性系数(R2)大于 0.9 表明相关性较好,QC样本的相关性越高,表明整个检测过程稳定性越好,数据质量越高 。实验结果表明 QC 样本间的相关性系数都在 0.9 以上,说明实验重复性较好。
下图分别展示了正、负离子模式下,质控样品的相关性。
相对标准偏差(RSD)是一种统计度量,表明数据集相对于其平均值的离散程度, 相对标准差的值越大,表明数据越分散。相对标准偏差越小,表明数据越接近其平均值。 QC样本相对丰度的相对标准偏差(RSD)越小,表明仪器的稳定性越好。本实验 QC 样本中 RSD≤30%的 Peak 数目占 QC 样本总 Peak 数目的比例在 80%以上,表明仪器分析系统稳定性较好。
将所有实验样本和QC样本提取得到的峰进行PCA分析。QC样本差异越小说明整个方法稳定性越好数据质量越高,体现在PCA分析图上就是QC样本的分布会聚集在一起。
下图分别展示了正、负离子模式下,总体样本的PCA图。
采用多变量统计分析,可以在最大程度保留原始信息的基础上将高维复杂的数据进行“简化和降维”,建立可靠的数学模型对研究对象的代谢谱特点进行归纳和总结。首先采用无监督的主成分分析方法(Principal Component Analysis,PCA)来观察各样品之间的总体分布和组间的离散程度,然后用有监督的(正交)偏最小二乘法分析((Orthogonal)Partial Least Squares Discrimination Analysis,(O)PLS-DA)来区分各组间代谢轮廓的总体差异,寻找组间的差异代谢物。OPLS-DA分析中,变量权重值(Variable important in projection, VIP)至少大于1的变量被认为是差异变量。为防止模型过拟合,100次置换检验的方法来考察模型的拟合效果。
多元统计分析结果见4.多元统计分析文件夹。
主成分分析(Principal Component Analysis,PCA)是一种无监督模式识别的多维数据统计分析方法,通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。这个分析方法常用来研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关,通常数学上的处理就是将原来多个指标作线性组合,作为新的综合指标(Eriksson et al., 2006)。
对代谢物进行主成分分析,能从总体上反映样本组间和组内的变异度。因此在数据分析中,一般先采用 PCA 方法,观察组间样本的总体分布趋势和组间样本的差异度。从PCA得分图可观察样品的聚集、离散程度。样品分布点越靠近,说明这些样品中所含有的变量/分子的组成和浓度越接近;反之,样品点越远离,其差异越大,得分图中PC1为第一主成分解释度,PC2为第二主成分解释度,一般认为主成分的累积贡献率>70%较好。
PCA 模型的相关参数见PCA 模型参数表:
title: 该模型对应的数据对象
type: 模型类型
N: 模型的观测个数, 即为模型的样本数目
A: 模型的主成分个数
R2X(cum): 模型的解释率,该值越接近1越理想,一般认为R2X大于0.5说明模型效果较好
注:横坐标表示第一主成分解释度,纵坐标表示第二主成分解释度,散点的颜色和形状表示样本的实验分组。椭圆代表 95%置信区间。
主成分分析法虽然能够有效地提取主要信息,但是对于相关较小的变量不敏感,而偏最小二乘法判别分析(Partial Least Squares-Discriminant Analysis, PLS-DA)可以解决此问题。PLS-DA 是一种有监督模式识别的多元统计分析方法,具体做法是在分析时对样品进行指定并分组,分组后模型会自动加上另外一个隐含的数据集Y,模拟分析数据矩阵(X)与Y值间的关系,去除不相关的噪音,这种模型计算的方法把各组分门别类可以使组间区分最大化,有利于寻找差异代谢物。
PLS-DA 模型的相关参数见PLS-DA 模型参数表:
title: 该模型对应的数据对象
type: 模型类型
N: 模型的观测个数, 即为模型的样本数目
A: 模型的主成分个数
R2X(cum): 模型的解释率,该值越接近1越理想
R2Y(cum): 模型的稳定性,该值越接近1越理想
Q2(cum): 模型的预测率,该值越接近1越理想
注:横坐标表示第一主成分解释度,纵坐标表示第二主成分解释度,散点的颜色和形状表示样本的实验分组。椭圆代表 95%置信区间。
正交偏最小二乘法判别分析(OPLS-DA)是PLS-DA的衍生算法,结合了正交信号矫正(OSC)和 PLS-DA 方法, 在建模时能够将 X 矩阵信息分解成与 Y 相关和不相关的两类信息,其中与 Y 相关的变量信息为预测主成分,与 Y 不相关的变量信息为正交主成分,通过去除不相关的差异来筛选差异变量,从而OPLS-DA可以更好地区分组间差异,提高模型的有效性和解析能力。在 OPLS-DA 得分图上,有两种主成分,即预测主成分和正交主成分。OPLS-DA 将组间差异最大化的反映在 t[1]上,所以从 t[1]上能直接区分组间变异,而在正交主成分 to[1]上则反映了组内的变异。
OPLS-DA 模型的相关参数见OPLS-DA 模型参数表:
title: 该模型对应的数据对象
type: 模型类型
N: 模型的观测个数, 即为模型的样本数目
A: 模型的主成分个数+正交成分个数
R2X(cum): 模型的解释率,该值越接近1越理想
R2Y(cum): 模型的稳定性,该值越接近1越理想
Q2(cum): 模型的预测率,该值越接近1越理想
置换检验(Permutation testing)是一种用来评价(O)PLS模型准确性的随机排序方法,用来评判监督性学习方法获得分类不是偶然的。该方法固定X矩阵,将先前定义的分类Y矩阵的变量进行随机排列n次(一般100~1000次),每次排列组合后,构建新的(O)PLS模型,计算相应的模型累积的R2Y和Q2值。将原始分类的Y矩阵、n次不同排列的Y矩阵与R2Y、Q2进行线性回归,得到的回归直线与y轴的截距值作为衡量模型是否过拟合的标准。通常Q2截距值小于0表明模型没有过拟合。
注:图中横坐标表示置换检验的置换保留度(与原模型Y变量顺序一致的比例,置换保留度等于1处的点即为原模型的R2Y和Q2 值),纵坐标表示R2Y或Q2 的取值,绿色三角形表示置换检验得到的R2Y值,蓝色圆点表示置换检验得到的Q2值,两条虚线分别表示R2Y和Q2 的回归线。原模型R2Y非常接近1,说明建立的模型符合样本数据的真实情况;原模型Q2 非常接近1,说明如果有新样本加入模型,会得到近似的分布情况,总的来说原模型可以很好地解释两组样本之间的差异。置换检验随机模型的Q2值均小于原模型的Q2 值;Q2的回归线与纵轴的截距小于零;同时随着置换保留度逐渐降低,置换的Y变量比例增大,随机模型的Q2逐渐下降,且Q2截距值小于0,说明原模型具有良好的稳健性,不存在过拟合现象。
注:横坐标表示第一主成分解释度,纵坐标表示正交成分解释度,散点的颜色和形状表示样本的实验分组。椭圆代表 95%置信区间。
表达趋势相同的代谢物在生物学上往往具有结果和功能相似性/互补性,或者受同一代谢通路的正调控/负调控,因此。对差异代谢物进行层次聚类分析,有助于我们将具有相同特征的代谢物归为一类,并发现代谢物在实验组间的变化特征。 对每一组对比,我们对差异代谢物进行聚类,并以热力图进行展示。
注:图中每列表示一个样品,每行表示一个代谢物,图中的颜色表示代谢物在该组样品中相对表达量的大小,红色代表该代谢物在该样品中表达量较高,蓝色代表表达量较低,具体表达量大小变化趋势请见右上方颜色条下的数字标注。左侧为代谢物聚类的树状图,右侧为代谢物的名称,两个代谢物分支离得越近,说明它们的表达量越接近;上方为样品聚类的树状图,下方为样品的名称,两个样品分支离的越近,说明这两个样品所有代谢物的表达模式越接近,即代谢物表达量变化趋势越接近。
相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度,两个变量之间的相关程度通过相关系数r来表示。相关系数r的值在-1和1之间,但可以是此范围内的任何值。正相关时,r值在0和1之间;负相关时,r值在-1和0之间。r的绝对值越接近1,两变量的关联程度越强,r的绝对值越接近0,两变量的关联程度越弱。
相关性分析可以帮助衡量显著性差异代谢物之间的代谢密切程度,有利于进一步了解生物状态变化过程中代谢物之间的相互调节关系。具有表达相关性的代谢物,可能共同参与某一生物过程,即功能相关性;此外,不同代谢物之间具有协同或互斥关系,比如某类代谢物变化趋势相同,则为正相关;与某类代谢物变化趋势相反,则为负相关。正相关的代谢物也可能表明其来源于同一合成途径,负相关表明可能被分解用于其他代谢物的合成,即合成转化关系。
对每一组对比,我们对差异代谢物的定量值进行相关系数计算,计算方法采用pearson方法,并以热力图形式进行展示。
注:每一行和每一列都分别表示一个代谢物,不同位置的色块表示对应位置代谢物的相关性系数大小。红色表示正相关,蓝色表示负相关,颜色越深表示相关性越强。
要分为两火山图(Volcano Plot)主要用于展示代谢物在两组样品中的相对含量差异以及在统计学上差异的显著性。火山图是以倍数变化(Fold Change)的log2值为横轴,以P值的-log10变化值为纵轴的散点图,根据显著性变化的阈值为分界线,将数据主要分为两大类,红点和蓝点为差异、灰点为没有变化(参照图例)。可以看出各组差异代谢物的分布情况。
注:火山图中每个点代表一个代谢物,横坐标代表该组对比各物质的倍数变化(取以2为底的对数),纵坐标表示t检验的P-value(取以10为底对数的负数),散点大小代表OPLS-DA模型的VIP值,散点的颜色表示上调和下调, 红色表示上调, 蓝色表示下调。
在OPLS-DA分析中, 变量权重值(Variable Importance for the Projection, VIP)能够用于衡量各代谢物的表达模式对各组样本分类判别的影响强度和解释能力,挖掘具有生物学意义的差异代谢物分子。
对每一组对比,我们对差异代谢物VIP值以气泡图进行展示。
注:图中左侧横坐标是OPLS-DA 分析VIP值, 纵坐标是代谢物。图中点的大小代表VIP值的大小。
KEGG注释分析仅找到所有差异代谢物参与的通路,但要想知道这些通路是否与实验条件密切相关,需对差异代谢物进行进一步的代谢通路分析。通过对差异代谢物所在通路的富集分析,我们可以对通路进行进一步的筛选,找到与代谢物差异相关性最高的关键通路。
富集通常是分析一组代谢物在某个通路上是否过表达 (over presentation)。分析的结论是基于一组相关的代谢物,因此,富集分析增加了研究的可靠性以及能够识别出与生物现象最相关的通路,导致样本性状差异的最重要的功能差别。p 值表示差异代谢物在该通路中是否出现了富集。当P值小于某一个阈值时(一般设为0.05),我们认为该通路是可信的。
注:KEGG富集分析图,纵坐标为通路名称,横坐标为倍数富集,气泡的大小表示该通路上富集到的差异代谢物的数目, 气泡的颜色表示通路富集分析的p值。
MSEA(Metabolite Set Enrichment Analysis)代谢集富集分析,是代谢组数据分析方法的一种。KEGG富集分析是探讨目标代谢集(差异代谢物)主要富集到的代谢途径,这种分析方式往往会存在一定的缺失,即阈值过滤可能会损失对具备重要意义的微效代谢物的挖掘。MSEA分析可弥补上述研究不足,重点挖掘代谢物丰度变化较低但仍对生物体调控具备主要意义的代谢物及其所在的代谢途径,此分析采用所有检测物质进行分析。
注:纵坐标表示代谢集的名称,对应标注代谢集的 p-value 值;横坐标表示富集程度,颜色表示富集分析的 p 值,颜色越深 p 值越小,富集程度越显著。
差异代谢物使用箱线图展示组间丰度差异。箱线图展示是用作显示一组数据分散情况的统计图,可以相对直观地看出数据分布特点。每组数据均可呈现其最小值、最大值、平均水平,以及最小值、最大值形成间距。
注:图中横纵表为样本名组别名称,纵坐标为样本中代谢物定量值取log2。
相关性分析的另一种展示形式为网络图,选取相关性系数大于0.7的代谢物展示网络图。
注:图中点代表差异代谢物,点的大小代表差异倍数绝对值的大小,点越大表示差异倍数越大。点的颜色代谢差异代谢物的上下调,蓝色为上调,红色下调,图中线条的颜色代表相关性,红色线条代表负相关,蓝色线条代表正相关。线条的粗细代表相关性系数绝对值的大小,线条越粗,相关性越大。